Chinese NLP Toolkits 中文NLP工具
Toolkits 综合NLP工具包
THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)
NLPIR by 中科院 (Java)
LTP 语言技术平台 by 哈工大 (C++)
FudanNLP by 复旦 (Java)
BosonNLP by Boson (商业API服务)
HanLP (Java)
SnowNLP (Python) Python library for processing Chinese text
YaYaNLP (Python) 纯python编写的中文自然语言处理包,取名于“牙牙学语”
小明NLP (Python) 轻量级中文自然语言处理工具
DeepNLP (Python) Tensorflow实现的自然语言处理工具, 加持预训练的中文模型.
chinese_nlp (C++ & Python) 中文自然语言处理工具和案例
Chinese-Annotator (Python) 中文文本标注工具
Popular NLP Toolkits for English/Multi-Language 常用的英文或支持多语言的NLP工具包
CoreNLP by Stanford (Java)Java核心NLP工具套件。
NLTK (Python) 自然语言工具包
spaCy (Python) 工业水准的自然语言处理
textacy (Python) NLP, before and after spaCy
OpenNLP (Java) 基于机器学习的工具包,用于处理自然语言文本。
gensim (Python) Gensim是一个用于主题建模,文档索引和大型语料库相似性检索的Python库。
Chinese Word Segment 中文分词
Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件
kcws 深度学习中文分词 (Python) BiLSTM+CRF与IDCNN+CRF
ID-CNN-CWS (Python) 基于迭代卷积神经网络的中文分词
Genius 中文分词 (Python) Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
loso 中文分词 (Python)
yaha “哑哈”中文分词 (Python)
ChineseWordSegmentation (Python) 无需语料库的中文分词
Information Extraction 信息提取
MITIE (C++) 信息提取工具
Duckling (Haskell) 用于表达,测试和评估输入字符串的可组合语言规则的语言,引擎和工具.
IEPY (Python) IEPY是专注于关系抽取的信息抽取的开源工具。
Snorkel一个专注于信息提取的培训数据创建和管理系统
Neural Relation Extraction implemented with LSTM in TensorFlow
Information-Extraction-Chinese Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
Familia 百度出品的 工业主题建模工具包
Text Classification各种文本分类模型,更有深度学习的加持。 用知乎问答语聊作为测试数据。
QA & Chatbot 问答和聊天机器人
Rasa NLU (Python) 将自然语言转化为结构化数据, a Chinese fork at Rasa NLU Chi
Rasa Core (Python) 基于机器学习的对话式软件对话引擎
Snips NLU (Python) Snips NLU是一个Python库,允许解析用自然语言编写的句子并提取结构化信息。
DeepPavlov (Python) 一个用于构建端到端对话系统和培训chatbots的开源库。
ChatScript自然语言工具/对话管理器,基于规则的聊天机器引擎。
Chatterbot (Python) ChatterBot是一个机器学习,用于创建聊天机器人的对话式对话引擎。
Chatbot (Python) 基於向量匹配的情境式聊天機器人
Tipask (PHP) 一款开放源码的PHP问答系统,基于Laravel框架开发,容易扩展,具有强大的负载能力和稳定性。
QuestionAnsweringSystem (Java) 一个Java实现的人机问答系统,能够自动分析问题并给出候选答案。
QA-Snake (Python) 基于多搜索引擎和深度学习技术的自动问答
使用深度学习算法实现的中文阅读理解问答系统 (Python)
DuReader中文阅读理解Baseline代码 (Python)
基于SmartQQ的自动机器人框架 (Python)
Corpus 中文语料
农业知识图谱 农业领域的信息检索,命名实体识别,关系抽取,分类树构建,数据挖掘
UDChinese (for training spaCy POS)
Synonyms:中文近义词工具包 基于维基百科中文和word2vec训练的近义词库,封装为python包文件。
Chinese_conversation_sentiment中文语义数据集可能对语义分析有用。
中文突发事件语料库 Chinese Emergency Corpus
dgk_lost_conv 中文对白语料 中文对白语料库
用于训练中英文对话系统的语料库 用于训练机器人的语料库
中国股市公告信息爬取 通过python脚本从巨潮网络的服务器获取中国股市(sz,sh)的公告(上市公司和监管机构)
tushare财经数据接口 TuShare是一个免费、开源的python财经数据接口包。
保险行业语料库 [52nlp介绍Blog] 专业领域的语料库
最全中华古诗词数据库 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
中文语料小数据 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据
中文人名语料库 中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。
中文敏感词词库 敏感词过滤的几种实现+某1w词敏感词库
中文简称词库 中文缩写的一个语料库, including negative full forms.
中文数据预处理材料 中文分词词典和中文停用词
SentiBridge: 中文实体情感知识库 刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。
OpenCorpus 免费提供的(中文)语料库。
Organizations 相关中文NLP组织和会议
NLP Conference Calender NLP社区的主要会议,期刊,研讨会和共享任务。
Learning Materials 学习资料
Stanford CS224n Natural Language Processing with Deep Learning 2017
Speech and Language Processing by Dan Jurafsky and James H. Martin
文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等实验。
nlp_tasks 自然语言处理任务和选定参考
注意
本文由jupyter notebook转换而来, 您可以在这里下载notebook
统计咨询请加QQ 2726725926, 微信 mllncn, SPSS统计咨询是收费的
微博上@mlln-cn可以向我免费题问
请记住我的网址: mlln.cn 或者 jupyter.cn